生成 Deep Learning
データセットがどのように生成されるかを確立モデルの観点から記述する
このモデルからサンプリングすることで新しいデータを生成できる
ジェネレータと考えればいいのか
違い.1
ラベル付きデータセットを用いて入力を出力に写像する関数の学習
数学的表記でこれを表す
観測$ \bm{x}とラベル$ yについて,
$ \bold{x}が与えられたときのラベル$ yの確立
$ \bold{x}が観測される確立
特にデータセットがラベル付きなら(確立?)分布$ p(\bm{x}|y)を推定する生成モデルを生成することが出来る
確率論の復習
観測$ \bold{x}が取り得る全ての値の集合
標本空間内の$ \bm{x}を0 ~ 1の数字に写像する関数
標本空間内の全ての点の密度関数について,離散的な場合はその合計,連続的な場合はその積分は1である
無数にある密度関数について,有限子のパラメータ群$ \theta = \{ \theta_1, \cdots ,\theta_n \}を用いて区別する
尤度(likeihood)$ \cal{L}(\theta|\bm{x}) パラメータ群$ \thetaの尤度$ \cal{L}(\theta|\bm{x}) = p_{\theta}(\bm{x})
観測点$ \bm{x}における$ \thetaの尤度は$ \thetaでの密度関数の点$ \bm{x}の値に等しい
特に,独立な全ての観測の集合$ \bm{X}について,
$ \cal{L}(\theta|\bm{X}) = \prod_{\bm{x}\in\bm{X}}p_\theta(\bm{x})
$ \ell(\theta|\bm{x}) = \sum_{\bm{x}\in\bm{X}} \log p_\theta(\bm{x})
尤度を最大にするようなパラメータ群$ \hat{\theta}は何か? データセット$ \bm{X}を最も上手く説明できるようなパラメータ群は何か?
つまり数式的には以下
$ \hat\theta = \argmax_\theta \cal{L}(\theta|\bm{X})
$ \hat\thetaを最尤推定値(maximam likeihood estimate, MLE)とも呼ぶ 高次元の標本空間を直接モデル化すると失敗する可能性がある
低次元の潜在空間を用いて訓練セット内の各観測を記述し,潜在空間の一点を元の領域の一点に写像する写像関数を学習する
構造化されていないデータの高レベルな表現を学習するため,積み重なった複数の処理ノードの層を用いる機械学習のアルゴリズムの一種
構造化された/されていないデータ
構造化されたデータ
観測を記述する特徴の列からなる表みたいなものを想像すればよい
されていない
画像,音声,動画,テキスト
画像には空間的構造,音声には時間的構造があるが,特徴量の並びには出来ない
層,ノード,重み